Qualidade do vinho tinto por Anderson Akihiro Suga

Descrição

Neste projeto exploraremos o conjunto de dados sobre a qualidade dos vinhos tintos, onde analisaremos se as propriedades químicas influenciam na qualidade do vinho. Conjunto de dados está disponível para download nesse link e descrição das variáveis e como os dados foram coletados no nesse link.

Breve resumo do conjunto de dados

Segue algumas informações básicas sobre o conjunto de dados.

Estrutura de dados

## 'data.frame':    1599 obs. of  13 variables:
##  $ X                   : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ fixed.acidity       : num  7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
##  $ volatile.acidity    : num  0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
##  $ citric.acid         : num  0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
##  $ residual.sugar      : num  1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
##  $ chlorides           : num  0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
##  $ free.sulfur.dioxide : num  11 25 15 17 11 13 15 15 9 17 ...
##  $ total.sulfur.dioxide: num  34 67 54 60 34 40 59 21 18 102 ...
##  $ density             : num  0.998 0.997 0.997 0.998 0.998 ...
##  $ pH                  : num  3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
##  $ sulphates           : num  0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
##  $ alcohol             : num  9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
##  $ quality             : int  5 5 5 6 5 5 5 7 7 5 ...
  • Existêm 1599 registros e 13 variáveis
  • Todas as variáveis no conjunto de dados têm valores numêricos, exceto x e quality que são do tipo inteiro.
  • “x” parece ser um identificador único de cada registro.

Resumo estatístico

##        X          fixed.acidity   volatile.acidity  citric.acid   
##  Min.   :   1.0   Min.   : 4.60   Min.   :0.1200   Min.   :0.000  
##  1st Qu.: 400.5   1st Qu.: 7.10   1st Qu.:0.3900   1st Qu.:0.090  
##  Median : 800.0   Median : 7.90   Median :0.5200   Median :0.260  
##  Mean   : 800.0   Mean   : 8.32   Mean   :0.5278   Mean   :0.271  
##  3rd Qu.:1199.5   3rd Qu.: 9.20   3rd Qu.:0.6400   3rd Qu.:0.420  
##  Max.   :1599.0   Max.   :15.90   Max.   :1.5800   Max.   :1.000  
##  residual.sugar     chlorides       free.sulfur.dioxide
##  Min.   : 0.900   Min.   :0.01200   Min.   : 1.00      
##  1st Qu.: 1.900   1st Qu.:0.07000   1st Qu.: 7.00      
##  Median : 2.200   Median :0.07900   Median :14.00      
##  Mean   : 2.539   Mean   :0.08747   Mean   :15.87      
##  3rd Qu.: 2.600   3rd Qu.:0.09000   3rd Qu.:21.00      
##  Max.   :15.500   Max.   :0.61100   Max.   :72.00      
##  total.sulfur.dioxide    density             pH          sulphates     
##  Min.   :  6.00       Min.   :0.9901   Min.   :2.740   Min.   :0.3300  
##  1st Qu.: 22.00       1st Qu.:0.9956   1st Qu.:3.210   1st Qu.:0.5500  
##  Median : 38.00       Median :0.9968   Median :3.310   Median :0.6200  
##  Mean   : 46.47       Mean   :0.9967   Mean   :3.311   Mean   :0.6581  
##  3rd Qu.: 62.00       3rd Qu.:0.9978   3rd Qu.:3.400   3rd Qu.:0.7300  
##  Max.   :289.00       Max.   :1.0037   Max.   :4.010   Max.   :2.0000  
##     alcohol         quality     
##  Min.   : 8.40   Min.   :3.000  
##  1st Qu.: 9.50   1st Qu.:5.000  
##  Median :10.20   Median :6.000  
##  Mean   :10.42   Mean   :5.636  
##  3rd Qu.:11.10   3rd Qu.:6.000  
##  Max.   :14.90   Max.   :8.000

Como nosso principal interesse é sobre a qualidade dos vinhos tintos, segue algumas estatísticas básicas sobre a qualidade.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.000   5.000   6.000   5.636   6.000   8.000

Descobrimos que a qualidade dos vinhos estão entre 3 e 8, onde a média é 5.636.

Gráficos Univariados

Para termos uma noção básica de como os dados estão distribuidos, segue abaixo histograma das 12 variáveis. Foi retirado a variável x por ser identificador único.

Análise Univariada

Qualidade do vinho

Como podemos verificar, intervalo da qualidade do vinho está entre 3 e 8. Valores com maior frequência está entre 5 e 6, com menor frequência com valor de 3, 4, 7 e 8. Por tanto dividi esses valores em 3 categorias, conforme abaixo:

  • 0 - 4 : ruim
  • 5 - 6 : razoável
  • 7 - 10 : bom

Resumo do rating:

##     ruim razoável      bom 
##       63     1319      217

Calculando a acidez total do vinho tinto

Para calcular a soma de todos os acidos do vinho tinho, criei uma nova variável chamado total.acidity. Ondo o calculo é feito através da seguinte formula:

  • total.acidity = fixed.acidity + volatile.acidity + citric.acid
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   5.270   7.827   8.720   9.118  10.070  17.050

Distribuição e Outliers

  • fixed.acidity, volatile.acidity, sulfur.dioxide, sulphated e alcohol contêm cauda longa.
  • density e pH são distribuições normais com poucas outliers.
  • residual.sugar e chlorides têm outliers extremos.
  • citric.acid contém uma grande quantidade de valores com zero.

Procurando citric.acid com valores zero

## [1] 132

Encontramos 132 registros com valores zero na variável citric.acid.

Plotando em escala log10 as variáveis com cauda longa

As variáveis residual.sugar e chlorides estão no tópico abaixo, pois além de transformar na escala do log10 e estarei limitando os valores superior e inferior.

Após conversão dos gráficos em log10, podemos verificar que eles têm uma distribuição normal com poucas outliers.

Analise e procurando padrão entre residual.sugar e chlorides

Além de converter na escala de log10, limitei os valores entre 5 a 95% dos valores encontrado para geração dos gráficos pois mesmo depois da transformação para log10 tinham ainda outliers.

Como esses 2 atributos estavam um pouco diferentes das demais variáveis, fiquei curioso qual o grau de correlação entre eles.

Segue correlação entre residual.sugar e chlorides :

## 
##  Pearson's product-moment correlation
## 
## data:  df$residual.sugar and df$chlorides
## t = 2.2257, df = 1597, p-value = 0.02617
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.006606405 0.104346223
## sample estimates:
##        cor 
## 0.05560954

Podemos concluir que o coeficiente de correlação entre as duas variáveis são bem fracas.

Qual é a estrutura do conjunto de dados?

## 'data.frame':    1599 obs. of  15 variables:
##  $ X                   : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ fixed.acidity       : num  7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
##  $ volatile.acidity    : num  0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
##  $ citric.acid         : num  0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
##  $ residual.sugar      : num  1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
##  $ chlorides           : num  0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
##  $ free.sulfur.dioxide : num  11 25 15 17 11 13 15 15 9 17 ...
##  $ total.sulfur.dioxide: num  34 67 54 60 34 40 59 21 18 102 ...
##  $ density             : num  0.998 0.997 0.997 0.998 0.998 ...
##  $ pH                  : num  3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
##  $ sulphates           : num  0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
##  $ alcohol             : num  9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
##  $ quality             : int  5 5 5 6 5 5 5 7 7 5 ...
##  $ rating              : Ord.factor w/ 3 levels "ruim"<"razoável"<..: 2 2 2 2 2 2 2 3 3 2 ...
##  $ total.acidity       : num  8.1 8.68 8.6 12.04 8.1 ...

Quais são os principais atributos de interesse deste conjunto de dados?

Como estamos pesquisando sobre a qualidade do vinho tinto, então o atributo principal é a quality

Quais outros atributos você acha que podem lhe auxiliar na investigação destes atributos de interesse?

Creio que os atributos residual.sugar, total.acidity e pH poderiam influenciar na qualidade final do vinho tinto.

Você criou novas variáveis a partir dos atributos existentes no conjunto de dados?

Foram criados 2 novas variáveis:

  • rating que contém a categoria de qualidade (ruim, razoável e bom)
  • total.acidity que é a soma de todos os ácidos no vinho tinto

Dos atributos investigados, distribuições incomuns foram encontradas? Você aplicou operações nos dados para limpá-los, ajustá-los ou mudar a forma dos dados? Se sim, por quê?

Verificamos que a variável citric.acid contém uma quantidade expressiva com valores zero. Além de transformações que fiz nas variáveis fixed.acidity, volatile.acidity, free.sulfur.dioxide, total.sulfur.dioxide, sulphates, alcohol, residual.sugar e chlorides no log10 e limitar os valores nas variáveis residual.sugar e chlorides para verificar as tendências desses atributos no histograma.

Gráficos Bivariados

Para obter uma rápida visualização das variáveis que possam afetar os atributos quality e rating, gerei boxplots para cada uma.

Boxplot por quality

## $`3`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   6.700   7.150   7.500   8.360   9.875  11.600 
## 
## $`4`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   4.600   6.800   7.500   7.779   8.400  12.500 
## 
## $`5`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   5.000   7.100   7.800   8.167   8.900  15.900 
## 
## $`6`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   4.700   7.000   7.900   8.347   9.400  14.300 
## 
## $`7`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   4.900   7.400   8.800   8.872  10.100  15.600 
## 
## $`8`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   5.000   7.250   8.250   8.567  10.230  12.600

## $`3`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4400  0.6475  0.8450  0.8845  1.0100  1.5800 
## 
## $`4`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.230   0.530   0.670   0.694   0.870   1.130 
## 
## $`5`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.180   0.460   0.580   0.577   0.670   1.330 
## 
## $`6`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1600  0.3800  0.4900  0.4975  0.6000  1.0400 
## 
## $`7`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1200  0.3000  0.3700  0.4039  0.4850  0.9150 
## 
## $`8`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2600  0.3350  0.3700  0.4233  0.4725  0.8500

## $`3`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0050  0.0350  0.1710  0.3275  0.6600 
## 
## $`4`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0300  0.0900  0.1742  0.2700  1.0000 
## 
## $`5`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0900  0.2300  0.2437  0.3600  0.7900 
## 
## $`6`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0900  0.2600  0.2738  0.4300  0.7800 
## 
## $`7`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.3050  0.4000  0.3752  0.4900  0.7600 
## 
## $`8`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0300  0.3025  0.4200  0.3911  0.5300  0.7200

## $`3`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.200   1.875   2.100   2.635   3.100   5.700 
## 
## $`4`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.300   1.900   2.100   2.694   2.800  12.900 
## 
## $`5`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.200   1.900   2.200   2.529   2.600  15.500 
## 
## $`6`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.900   1.900   2.200   2.477   2.500  15.400 
## 
## $`7`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.200   2.000   2.300   2.721   2.750   8.900 
## 
## $`8`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.400   1.800   2.100   2.578   2.600   6.400

## $`3`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0610  0.0790  0.0905  0.1225  0.1430  0.2670 
## 
## $`4`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.04500 0.06700 0.08000 0.09068 0.08900 0.61000 
## 
## $`5`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.03900 0.07400 0.08100 0.09274 0.09400 0.61100 
## 
## $`6`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.03400 0.06825 0.07800 0.08496 0.08800 0.41500 
## 
## $`7`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.01200 0.06200 0.07300 0.07659 0.08700 0.35800 
## 
## $`8`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.04400 0.06200 0.07050 0.06844 0.07550 0.08600

## $`3`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     3.0     5.0     6.0    11.0    14.5    34.0 
## 
## $`4`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    3.00    6.00   11.00   12.26   15.00   41.00 
## 
## $`5`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    3.00    9.00   15.00   16.98   23.00   68.00 
## 
## $`6`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00    8.00   14.00   15.71   21.00   72.00 
## 
## $`7`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    3.00    6.00   11.00   14.05   18.00   54.00 
## 
## $`8`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    3.00    6.00    7.50   13.28   16.50   42.00

## $`3`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     9.0    12.5    15.0    24.9    42.5    49.0 
## 
## $`4`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    7.00   14.00   26.00   36.25   49.00  119.00 
## 
## $`5`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    6.00   26.00   47.00   56.51   84.00  155.00 
## 
## $`6`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    6.00   23.00   35.00   40.87   54.00  165.00 
## 
## $`7`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    7.00   17.50   27.00   35.02   43.00  289.00 
## 
## $`8`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   12.00   16.00   21.50   33.44   43.00   88.00

## $`3`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9947  0.9962  0.9976  0.9975  0.9988  1.0010 
## 
## $`4`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9934  0.9956  0.9965  0.9965  0.9974  1.0010 
## 
## $`5`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9926  0.9962  0.9970  0.9971  0.9979  1.0030 
## 
## $`6`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9901  0.9954  0.9966  0.9966  0.9979  1.0040 
## 
## $`7`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9906  0.9948  0.9958  0.9961  0.9974  1.0030 
## 
## $`8`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9908  0.9942  0.9949  0.9952  0.9972  0.9988

## $`3`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.160   3.312   3.390   3.398   3.495   3.630 
## 
## $`4`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.740   3.300   3.370   3.382   3.500   3.900 
## 
## $`5`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.880   3.200   3.300   3.305   3.400   3.740 
## 
## $`6`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.860   3.220   3.320   3.318   3.410   4.010 
## 
## $`7`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.920   3.200   3.280   3.291   3.380   3.780 
## 
## $`8`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.880   3.162   3.230   3.267   3.350   3.720

## $`3`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4000  0.5125  0.5450  0.5700  0.6150  0.8600 
## 
## $`4`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3300  0.4900  0.5600  0.5964  0.6000  2.0000 
## 
## $`5`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.370   0.530   0.580   0.621   0.660   1.980 
## 
## $`6`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4000  0.5800  0.6400  0.6753  0.7500  1.9500 
## 
## $`7`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3900  0.6500  0.7400  0.7413  0.8300  1.3600 
## 
## $`8`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.6300  0.6900  0.7400  0.7678  0.8200  1.1000

## $`3`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   8.400   9.725   9.925   9.955  10.580  11.000 
## 
## $`4`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    9.00    9.60   10.00   10.27   11.00   13.10 
## 
## $`5`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     8.5     9.4     9.7     9.9    10.2    14.9 
## 
## $`6`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.40    9.80   10.50   10.63   11.30   14.00 
## 
## $`7`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    9.20   10.80   11.50   11.47   12.10   14.00 
## 
## $`8`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    9.80   11.32   12.15   12.09   12.88   14.00

## $`3`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   7.480   8.101   8.882   9.416  10.780  12.840 
## 
## $`4`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   5.270   7.570   8.300   8.647   9.300  13.450 
## 
## $`5`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   5.770   7.880   8.600   8.988   9.830  16.910 
## 
## $`6`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   5.390   7.710   8.640   9.118  10.190  15.350 
## 
## $`7`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   5.320   8.105   9.470   9.651  10.980  17.050 
## 
## $`8`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   5.660   7.932   9.095   9.381  11.000  13.630

Boxplot por rating

## $ruim
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   4.600   6.800   7.500   7.871   8.400  12.500 
## 
## $razoável
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   4.700   7.100   7.800   8.254   9.100  15.900 
## 
## $bom
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   4.900   7.400   8.700   8.847  10.100  15.600

## $ruim
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2300  0.5650  0.6800  0.7242  0.8825  1.5800 
## 
## $razoável
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1600  0.4100  0.5400  0.5386  0.6400  1.3300 
## 
## $bom
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1200  0.3000  0.3700  0.4055  0.4900  0.9150

## $ruim
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0200  0.0800  0.1737  0.2700  1.0000 
## 
## $razoável
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0900  0.2400  0.2583  0.4000  0.7900 
## 
## $bom
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.3000  0.4000  0.3765  0.4900  0.7600

## $ruim
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.200   1.900   2.100   2.685   2.950  12.900 
## 
## $razoável
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.900   1.900   2.200   2.504   2.600  15.500 
## 
## $bom
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.200   2.000   2.300   2.709   2.700   8.900

## $ruim
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.04500 0.06850 0.08000 0.09573 0.09450 0.61000 
## 
## $razoável
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.03400 0.07100 0.08000 0.08897 0.09100 0.61100 
## 
## $bom
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.01200 0.06200 0.07300 0.07591 0.08500 0.35800

## $ruim
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    3.00    5.00    9.00   12.06   15.50   41.00 
## 
## $razoável
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00    8.00   14.00   16.37   22.00   72.00 
## 
## $bom
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    3.00    6.00   11.00   13.98   18.00   54.00

## $ruim
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    7.00   13.50   26.00   34.44   48.00  119.00 
## 
## $razoável
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    6.00   24.00   40.00   48.95   65.00  165.00 
## 
## $bom
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    7.00   17.00   27.00   34.89   43.00  289.00

## $ruim
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9934  0.9957  0.9966  0.9967  0.9977  1.0010 
## 
## $razoável
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9901  0.9958  0.9968  0.9969  0.9979  1.0040 
## 
## $bom
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9906  0.9947  0.9957  0.9960  0.9974  1.0030

## $ruim
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.740   3.300   3.380   3.384   3.500   3.900 
## 
## $razoável
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.860   3.210   3.310   3.311   3.400   4.010 
## 
## $bom
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.880   3.200   3.270   3.289   3.380   3.780

## $ruim
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3300  0.4950  0.5600  0.5922  0.6000  2.0000 
## 
## $razoável
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3700  0.5400  0.6100  0.6473  0.7000  1.9800 
## 
## $bom
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3900  0.6500  0.7400  0.7435  0.8200  1.3600

## $ruim
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.40    9.60   10.00   10.22   11.00   13.10 
## 
## $razoável
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.40    9.50   10.00   10.25   10.90   14.90 
## 
## $bom
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    9.20   10.80   11.60   11.52   12.20   14.00

## $ruim
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   5.270   7.575   8.330   8.769   9.362  13.450 
## 
## $razoável
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   5.390   7.802   8.615   9.051   9.940  16.910 
## 
## $bom
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   5.320   8.100   9.470   9.629  10.980  17.050

Análise Bivariados

Ao explorar cada ponto, verificamos que vinho tinto “bom” geralmente tem as seguintes tendências:

residual.sugar e sulfur.dioxide não mostram nenhum impacto dramático com a classificação da qualidade do vinho tinto.

Curiosamente parece que diferentes tipos de ácidos afetam diferentemente a qualidade do vinho, conforme a variável volatile.acidity seguiu o caminho inverso onde quanto menor a taxa a qualidade é melhor a qualidade.

Ao utilizar a função cor.test, calculo a correlação de cada um desses atributos em relação a variável quality:

##         fixed.acidity      volatile.acidity           citric.acid 
##            0.12405165           -0.39055778            0.22637251 
##         total.acidity log10(residual.sugar)      log10(chlordies) 
##            0.10375373            0.02353331           -0.17613996 
##   free.sulfur.dioxide  total.sulfur.dioxide               density 
##           -0.05065606           -0.18510029           -0.17491923 
##                    pH      log10(sulphates)               alcohol 
##           -0.05773139            0.30864193            0.47616632

Parece que as seguintes variáveis têm altas taxas de correlações com a qualidade do vinho:

Vamos ver como essas variáveis citadas acima se comportam quando traçadas uma contra a outra em relação a qualidade.

Relacionamento bivariado mais fraco parace ser entre alcohol e citric.acid na qual a distribuição é mais uniforme.

E o relacionamento mais forte é entre citric.acid e volatile.acidity, onde teve uma correlação negativa.

Examinando as variáveis de acidez, vi fortes correlações entre elas:

## 
##  Pearson's product-moment correlation
## 
## data:  df$fixed.acidity and df$citric.acid
## t = 36.234, df = 1597, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.6438839 0.6977493
## sample estimates:
##       cor 
## 0.6717034

## 
##  Pearson's product-moment correlation
## 
## data:  df$volatile.acidity and df$citric.acid
## t = -26.489, df = 1597, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.5856550 -0.5174902
## sample estimates:
##        cor 
## -0.5524957

## 
##  Pearson's product-moment correlation
## 
## data:  log10(df$total.acidity) and df$pH
## t = -39.663, df = 1597, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.7283140 -0.6788653
## sample estimates:
##        cor 
## -0.7044435

Mais notável é o total.acidity correlacionar muito bem com o pH. Isso certamente é esperado, pois o pH é essencialmente uma medida de acidez. Uma questão interessante que podemos colocar usando o conhecimento básico de química, é perguntar quais outros componentes além dos ácidos o pH pode afetar. Podemos quantificar esta diferença construindo um modelo linear preditivo, para prever o pH com base em total.acidity e capturar a diferença de porcentagem como uma nova variável(pH.difference).

## $`3`
##       Min.    1st Qu.     Median       Mean    3rd Qu.       Max. 
## -0.0813800 -0.0574600 -0.0414300 -0.0304500  0.0001078  0.0248700 
## 
## $`4`
##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
## -0.080630 -0.038570 -0.008012 -0.010410  0.004476  0.171100 
## 
## $`5`
##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
## -0.082930 -0.017270  0.002810  0.004951  0.025280  0.154900 
## 
## $`6`
##       Min.    1st Qu.     Median       Mean    3rd Qu.       Max. 
## -0.1210000 -0.0199400 -0.0004283 -0.0008809  0.0165900  0.1546000 
## 
## $`7`
##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
## -0.066340 -0.019650 -0.001442 -0.002093  0.011690  0.101500 
## 
## $`8`
##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
## -0.040120 -0.017320  0.007486  0.011640  0.039700  0.075330

Mediana da nova variável ficou perto do zero na maioria dos casos. Vinhos com qualidade 3 apresentaram valores negativos, assim podemos interpretar que total.acidity não é um ótimo preditivo para pH. Provavelmente exista algum outro fator que afeta o pH do vinho.

Gráficos Multivariados

Análise Multivariada

Foram examinado 4 atributos que apresentavam alta correlação com a qualidade do vinho. Para melhor visualização da dispersão dos valores de qualidade, separei por categoria de “rating” com valores: ruim, razoável e bom. É claro que teor alto de citric.acid e baixo de volatile.acid contribuem para um bom vinho. Da mesma forma como tendem a ter altos porcentagem de sulphates e teor de alcohol. pH surpreendentemente teve pouco impacto no fator qualidade do vinho, em comparação com o alcohol que teve maior impacto. Mostrando assim um fator interessante sobre um bom vinho que depende do tipo de ácidos que estão presente na sua composição.


Gráficos Finais e Sumário

Primeiro Gráfico

##     ruim razoável      bom 
##       63     1319      217

Descrição do Primeiro Gráfico

A distribuição da qualidade do vinho tinto parece ser normal. 82.5% dos vinhos são classificados como 5 e 6 (qualidade “razoável”). Embora a escala de classificação esteja entre 0 e 10, não há vinhos com classificação 1, 2, 9 ou 10.

Segundo Gráfico

## $ruim
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.40    9.60   10.00   10.22   11.00   13.10 
## 
## $razoável
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.40    9.50   10.00   10.25   10.90   14.90 
## 
## $bom
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    9.20   10.80   11.60   11.52   12.20   14.00

Descrição do Segundo Gráfico

Gráfico demonstra a relação do teor de alcohol na qualidade do vinho. Na maioria dos casos quanto maior o teor do alcohol, melhor a qualidade do vinho. Em média o vinho com qualidade “bom” tem 1.285 (% volume) a mais de teor de alcohol em comparação com os vinhos de qualiade “ruim” e razoável. Porém como mostram os intervalos e outliers, atributo alcohol por si só não produz vinho com qualidade “bom”, pois como podemos no gráfico acima têm alguns vinhos com qualidade “ruim” tem teor do alcohol maior que a qualidade “razoável” mas mesmo assim a sua classificação é pior.

Terceiro Gráfico

Relação dos ácidos na qualidade do vinho

## $`3`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   6.700   7.150   7.500   8.360   9.875  11.600 
## 
## $`4`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   4.600   6.800   7.500   7.779   8.400  12.500 
## 
## $`5`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   5.000   7.100   7.800   8.167   8.900  15.900 
## 
## $`6`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   4.700   7.000   7.900   8.347   9.400  14.300 
## 
## $`7`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   4.900   7.400   8.800   8.872  10.100  15.600 
## 
## $`8`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   5.000   7.250   8.250   8.567  10.230  12.600

## $`3`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.4400  0.6475  0.8450  0.8845  1.0100  1.5800 
## 
## $`4`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.230   0.530   0.670   0.694   0.870   1.130 
## 
## $`5`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.180   0.460   0.580   0.577   0.670   1.330 
## 
## $`6`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1600  0.3800  0.4900  0.4975  0.6000  1.0400 
## 
## $`7`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1200  0.3000  0.3700  0.4039  0.4850  0.9150 
## 
## $`8`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2600  0.3350  0.3700  0.4233  0.4725  0.8500

## $`3`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0050  0.0350  0.1710  0.3275  0.6600 
## 
## $`4`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0300  0.0900  0.1742  0.2700  1.0000 
## 
## $`5`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0900  0.2300  0.2437  0.3600  0.7900 
## 
## $`6`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0900  0.2600  0.2738  0.4300  0.7800 
## 
## $`7`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.3050  0.4000  0.3752  0.4900  0.7600 
## 
## $`8`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0300  0.3025  0.4200  0.3911  0.5300  0.7200

## $`3`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.160   3.312   3.390   3.398   3.495   3.630 
## 
## $`4`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.740   3.300   3.370   3.382   3.500   3.900 
## 
## $`5`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.880   3.200   3.300   3.305   3.400   3.740 
## 
## $`6`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.860   3.220   3.320   3.318   3.410   4.010 
## 
## $`7`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.920   3.200   3.280   3.291   3.380   3.780 
## 
## $`8`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.880   3.162   3.230   3.267   3.350   3.720

Descrição do Terceiro Gráfico

Demonstração do efeito dos atributos ácidos e pH na qualidade do vinho. Vinhos com classificação mais alta, geralmente tem maior taxa de acidez e menor pH. Mas o atributo volatile.acidity não segue o mesmo fato dos outros ácido, quanto menor a taxa melhor a qualidade. Atributo citric.acid teve uma alta correlação com a qualidade do vinho, enquanto fixed.acidity teve menor impacto. Por exemplo os vinhos com citric.acid superior a 0.75 raramente são classificados como qualidade “bom”. 50% dos vinhos de qualidade “bom” tem um citric.acid relativamente alto que varia entre 0.3 e 0.49, enquanto que os vinhos de qualidade “razoável” e “ruim” têm menor quantidade de citric.acid.


Reflexão

Apesar de não beber vinho ou qualquer bebida alcoólica, decidi escolher esse tema para entender melhor como que é feito a classificação da vinho tinto. Dificuldade inicial foi não ter uma noção de quais atributos poderiam afetar na qualidade, pois não sabia se vinhos com maior teor de alcool, acidez ou adocicado é mais delicioso. Depois foi entender como que essas variáveis se equilibram para formar a qualidade do vinho final.

Através dessa análise de dados, consegui entre os muitos atributos identificar os principais fatores como alcohol, sulphates e acidez determinam a qualidade do vinho tinto. Esses atributos devem estar na lista de exigência para um bom vinho, caso contrário impactaria negativamente no resultado da qualidade. Concluimos também a correlação existente entre pH e a qualidade do vinho.

Existem poucos vinhos com classificação “ruim” ou “bom”. Poderíamos melhorar a qualidade de nossa análise, coletando mais dados e criando mais variáveis que possam contribuir para a analise da qualidade do vinho. Isso melhoraria a precisão dos modelos de previsão.

Seria interessante também coletar e dividir as classificações de dados entre as preferências do profissonal em degustação de vinhos e pessoas comuns. Assim poderiamos ver as diferenças e semelhanças entre cada classificação do vinho por especialista em vinho e pessoa comum, melhorando na precisão de quais atributos afetam na qualidade do vinho.

Para uma pesquisa futura seria interessante estudar sobre os atributos residual.sugar e sulfur.dioxide, pois continham muitos outliers e alta relação com classificação “ruim” do vinho.